在这个项目中,我们提出了一个CNN架构来检测异常和可疑活动。为该项目选择的活动正在公共场所开展,跳跃和踢球,并在公共场所携带枪支,蝙蝠和刀。通过训练有素的模型,我们将其与Yolo,VGG16,VGG19等先前的模型进行了比较。然后实现训练有素的模型进行实时检测,并使用。训练有素的.H5模型的TFLITE格式以构建Android分类。
translated by 谷歌翻译
拟议的购物助理模型SANIP将帮助盲人检测手持有的物体,并从检测到的对象中获取信息的视频反馈。提出的模型由三个Python模型组成,即自定义对象检测,文本检测和条形码检测。为了检测手持对象,我们创建了自己的自定义数据集,该数据集包括Parle-G,Tide和Lays等日常商品。除此之外,我们还收集了购物车和出口标志的图像,因为对于任何人来说,使用购物车都至关重要,并且在紧急情况下还要注意出口标志。对于其他2个模型,提出的文本和条形码信息将从文本转换为语音,并传达给盲人。该模型用于检测经过训练并成功地检测和识别所需输出的对象,其精度和精确度良好。
translated by 谷歌翻译
在语义细分中,将高级上下文信息与低级详细信息集成至关重要。为此,大多数现有的分割模型都采用双线性启动采样和卷积来具有不同尺度的地图,然后以相同的分辨率对齐。但是,双线性启动采样模糊了这些特征地图和卷积中所学到的精确信息,这会产生额外的计算成本。为了解决这些问题,我们提出了隐式特征对齐函数(IFA)。我们的方法的灵感来自隐式神经表示的快速扩展的主题,在该主题中,基于坐标的神经网络用于指定信号字段。在IFA中,特征向量被视为表示2D信息字段。给定查询坐标,附近的具有相对坐标的特征向量是从多级特征图中获取的,然后馈入MLP以生成相应的输出。因此,IFA隐含地将特征图在不同级别对齐,并能够在任意分辨率中产生分割图。我们证明了IFA在多个数据集上的功效,包括CityScapes,Pascal环境和ADE20K。我们的方法可以与各种体系结构的改进结合使用,并在共同基准上实现最新的计算准确性权衡。代码将在https://github.com/hzhupku/ifa上提供。
translated by 谷歌翻译
尽管诸如HRNET之类的语义细分的最新架构表现出了令人印象深刻的准确性,但其出色的设计选择引起的复杂性阻碍了一系列模型加速工具,并且进一步利用了对当前硬件效率低下的操作。本文表明,具有类似于重新连接的主链和一个小的多尺度的简单编码器架构,比复杂的语义分割体系结构(例如HRNET,fovenet和ddrnets)表现出PAR或更好。由于这些骨干的有效接收场小得多,因此天真地将设计用于图像分类的深层骨架用于语义分割的任务会导致低于PAR的结果。在HRNET,DDRNET和FANET等作品中提出的各种设计选择中,隐含的是具有较大有效接收场的网络。自然要问一个简单的编码器架构是否会比较如果没有较大的有效接受场的骨架,尽管不使用效率低下的操作(例如扩张的卷积)。我们表明,通过对重新结构进行较小且廉价的修改,可以为语义分割创建非常简单和竞争的基线。我们为台式机和移动目标提供了如此简单的体系结构的家庭,它们匹配或超过CityScapes数据集中复杂模型的性能。我们希望我们的工作为从业者提供了简单而有效的基线,以开发有效的语义细分模型。
translated by 谷歌翻译
虽然深度监督网络在最近的文献中是常见的,但它们通常在所有转型层上强加相同的学习目标,尽管它们不同的代表权力。在本文中,我们提出了分层监督的语义分割(HS3),一种培训方案,该训练方案在分割网络中监督中间层以通过不同的任务复杂性来学习有意义的表示。为了在整个网络中强制执行一致的性能与复杂性权衡,我们导出了各种类群集,以监督网络的每个过渡层。此外,我们设计了一个融合框架HS3-Fuse,以聚合这些层产生的分层特征,可以提供丰富的语义上下文并进一步增强最终分割。广泛的实验表明,我们提出的HS3方案大得多优于Vanilla深度监督,没有增加推理成本。我们提出的HS3-FUSE框架进一步改善了分割预测,并实现了两种大分段基准的最新结果:Nyud-V2和城市景观。
translated by 谷歌翻译